Planificación espacial visual con autodestilación de brecha de modalidad
MGSD mejora la planificación espacial visual un 19% mediante autodestilación consciente de brecha de modalidad, cerrando la brecha percepción-razonamiento.
MGSD mejora la planificación espacial visual un 19% mediante autodestilación consciente de brecha de modalidad, cerrando la brecha percepción-razonamiento.
Descubre LongSpace, un framework de memoria espacial para videos largos que mejora la comprensión de rutas y objetos. Ideal para IA en robótica y conducción.
Descubre GeoVR, un nuevo enfoque que enseña a los modelos multimodales a comprender el espacio 3D usando solo videos 2D. Resultados estatales del arte en razonamiento espacial.
Descubre cómo el nuevo SLM integra representaciones geométricas para lograr razonamiento espacial real en LLMs, superando métodos simbólicos tradicionales.
Los Tokens de Percepción Imaginativa (IPT) mejoran el razonamiento espacial en modelos multimodales sin generar imágenes. Aumento del 3.4% en precisión en conteo multivista.
Descubre cómo KeyVT optimiza la selección de vistas y tokens para responder preguntas sobre escenas 3D sin entrenamiento, superando a métodos existentes.
Descubre cuándo y cuánto imaginar en razonamiento espacial visual. AVIC optimiza el uso de modelos del mundo, superando a GPT-4o con menos recursos.
Los LLM de frontera fallan en rotación mental incluso con ayuda externa. Estudio: solo 62.5% de precisión. Descubre por qué carecen de primitivas visuales.
Descubre cómo un mapa jerárquico semántico-geométrico permite navegar en 3D con instrucciones de lenguaje, superando métodos supervisados.
La diversidad en exploración supera a la frecuencia de uso de herramientas. Descubre el colapso y cómo la regularización de entropía mejora el razonamiento.
Descubre cómo APEIRIA combina la transparencia del razonamiento simbólico con la flexibilidad de los LLMs 3D para mejorar el razonamiento espacial. ¡Lee más!
PlanarBench evalúa la capacidad de los LLMs para dibujar grafos planos en ASCII. Descubre cómo el número de aristas predice el rendimiento de 91 modelos.
¿Los VLMs saben cuándo abstenerse? Un estudio revela que fallan en preguntas espaciales con oclusión o ambigüedad, respondiendo con exceso de confianza. Descubre por qué.
Descubre cómo la estructura lingüística y los sesgos en los LLM afectan la navegación espacial. La topología protege, la semántica puede engañar.
MechVQA: el primer dataset completo para evaluar LLMs multimodales en dibujos mecánicos. Supera a modelos cerrados con un 7.57% de precisión extra.
Los VLMs son buenos en razonamiento espacial pero fallan en interacciones multiturno. SpatialAct revela la brecha entre percepción y acción en 3D.
ERGeoBench evalúa la geolocalización encarnada de modelos multimodales usando razonamiento espacial y percepción visual. Descubre sus limitaciones.
<meta name=description content=Descubre AtomWorld un benchmark de razonamiento espacial para LLMs en materiales cristalinos. Evalúa la comprensión 3D de la IA en estructuras atómicas.>
<meta content=Descubre si los LLMs realmente construyen modelos del mundo. Un análisis multilingüe del razonamiento espacial en inteligencia artificial.>